"""
使用requests爬取百度浙江工贸贴吧第1至第3页数据，保存在文件中
https://tieba.baidu.com/f?kw=浙江工贸&pn=0
https://tieba.baidu.com/f?kw=浙江工贸&pn=50
https://tieba.baidu.com/f?kw=浙江工贸&pn=100

爬取网页数据：
1.要不要登录才能访问
  需要登录才能访问的话，要考虑用cookie或者session来实现
2.Get/post请求 Network
  get请求，需要知道请求url，请求头（User—Agent）
  post请求，url，请求头（User—Agent），请求数据（Form—date）
"""
import requests
#爬取url内容保存在file_name文件中
def load_page(url,file_name):
    headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36'}
    html=requests.get(url,headers=headers)
    #将爬取的内容写入html
    print(f'正在保存{file_name}')
    with open(file_name,'w',encoding='utf-8') as f:
        f.write(html.content.decode())






#1)让用户输入要爬取的贴吧，还有起始页和结束页
kw=input('请输入要爬取的贴吧名:')
begin=int(input('请输入起始页:'))
end=int(input('请输入结束页:'))
#2)根据用户输入，拼接url的kw
url='https://tieba.baidu.com/f?kw'+kw
#3)根据输入的起始页和结束页，循环去拼接完整的url,爬取每一页数据，保存在文件中
for page in range(begin,end):
    pn=(page-1)*50
    #拼接处完整的url
    url_new=url+'&pn'+str(pn)
    # print(url_new)
    #拼写文件名
    file_name='第'+str(page)+'页.html'
    load_page(url_new,file_name)
